Вершинина Л.П.
О ПЕРСПЕКТИВАХ ПОИСКА ИНФОРМАЦИИ В WEB
В настоящее время библиотеки получают все большую возможность доступа к WEB. Доступ к информации, представленной в сетевой среде, особенно актуален в связи с недостаточным финансированием библиотек и одновременным повышением стоимости печатных изданий.
WEB содержит сейчас порядка 2,5 млрд. документов, а общий объем подключенных к Сети баз данных составляет примерно 550 млрд. документов. Однако принципиальную доступность любой информации через Интернет не следует путать с реальными возможностями работы с ней. В итоге и отдача от доступа к глобальному океану информации во многом иллюзорна. Существующие информационно-поисковые системы (ИПС) недостаточно хорошо справляются со своими задачами. Так, по последним исследованиям, ни одна из глобальных ИПС не покрывает более 16% из содержащихся во всемирной сети страниц.
Абсолютное большинство современных ИПС, в том числе и те, которые обрабатывают запросы на естественных языках (Яндекс, Yahoo и т.д.), реализуют поиск по ключевым словам. При этом успех ИПС с точки зрения скорости поиска определяется исключительно архитектурой индекса. Информационные ресурсы Интернет меняют свое состояние постоянно, и индексирование становится непростой задачей.
Перспективным направлением развития ИПС является использование агентно-ориентированных технологий. К построению агентно-ориентированных систем можно указать два подхода: реализация единственного автономного агента или разработка мультиагентной системы (МАС). Автономный агент взаимодействует только с пользователем и реализует весь спектр функциональных возможностей, необходимых в рамках агентно-ориентированной программы. В противовес этому МАС являются программно-вычислительными комплексами, где взаимодействуют различные агенты для решения задач, которые трудны или недоступны в силу своей сложности для одного агента. Мультиагентный механизм поиска реализован в некоторых экспериментальных системах.
Необходимо наличие, по меньшей мере, двух типов агентов: фильтрующих и поисковых. Фильтрующие агенты приспосабливаются к пользователям и их информационным потребностям, сохраняют историю его действий. Поисковые агенты занимаются поиском и обнаружением новой информации, осуществляют информационную обработку ресурсов и приспосабливаются к найденным источникам информации.
Агенты могут быть специализированными и неспециализированными. Неспециализированные поисковые агенты являются первым уровнем надстройки над поисковыми машинами и, по сути дела, имеются в настоящее время у всех машин поиска. Такие агенты, в первую очередь, обеспечивают поиск по ключевым словам и устойчивым словосочетаниям.
Сейчас на поисковых машинах происходит только синтаксический анализ запросов, но не происходит семантического анализа предложений. Выделяются информативные унитермы и мультитермы и отбрасываются неинформативные, так называемые стоп-слова. В результате пользователь на свой запрос получает тысячи и десятки тысяч ссылок, большая часть из которых дублирует друг друга. Дальнейшее усложнение поисковых машин не снимет указанные проблемы, а переведет их на новый, более высокий уровень.
Информационные потребности общества имеют свойство непрерывно возрастать как количественно, так и качественно. В настоящее время сделаны первые шаги по поиску видеоданных с применением теории распознавания, аудиоданных по сигнатуре файла.
Перспективнейшим направлением является использование семантического анализа запросов на основе нечеткой логики и методов искусственного интеллекта. Пока что эти методы опробованы в некоторых исследовательских системах и широко не применяются, но, очевидно, что будущее за ними. Семантический поиск основан не на ключевых словах, а скорее, на ключевых понятиях. Если лексическое представление документа – это спектр его терминов, то семантическое представление – вектор присутствия в нем семантических категорий. Число этих категорий может быть на несколько порядков меньше числа терминов. В итоге семантическое описание гораздо компактнее лексического. Распознавание смысла текстов позволяет легко настраивать персональные информационные фильтры, т.е. обучать персональных агентов-секретарей.
Понимание семантики информации – сжатого представления ее содержания – является важнейшим условием создания глобальных распределенных поисковых систем следующего поколения. Поиск в агентской сети должен направляться ассоциативными ссылками агентов друг на друга. Агенты должны уметь устанавливать такие гиперссылки самостоятельно, без участия человека.
Системы, построенные на базе специализированных агентов, кроме поиска, предоставляют пользователям определенный пакет средств для организации и управления найденной информацией. Как правило, такие системы содержат набор агентов, каждый из которых ориентирован на поиск информации только по одной теме. Основные специализации агентов в таких системах в настоящее время – новости, конференции и группы по интересам, книги, программное обеспечение, электронные магазины и другая бизнес-информация и др. Обычно пользователь здесь может сформировать запрос к системе, используя естественный язык, а результаты сопровождаются аннотациями содержания найденных документов, списками ключевых слов и некоторой другой дополнительной информацией, облегчающей пользователю выделение интересующих его ресурсов.
Таким образом, агенты могут быть специализированными не только по выполняемым функциям, но и по предметным областям. Большое достоинство как специализированных, так и неспециализированных агентов – четкое срабатывание на хорошо структурированных данных в известном формате.
Все эти факторы говорят в пользу эффективного использования агентных технологий также в Интранет. Наметившаяся в последнее время тенденция сближения Интернет и Интранет состоит, в частности, в унификации форматов представления данных и интерфейсов. Следующим шагом является унификация поискового сервиса. Отсюда вывод: тенденции, присущие организации информационного поиска в Интернет, свойственны и Интранет. Использование семантического анализа запросов на основе нечеткой логики, применение агентно-ориентированных технологий является перспективным направлением разработки ИПС в Intranet.
Что должен в итоге получить рядовой пользователь ИПС? Во-первых, диалог действительно на естественном языке (то есть с анализом семантики) и с учетом “профиля пользователя”; во-вторых, возможность поиска в разнородных массивах информации как структурированной, так и неструктурированной; в-третьих, осуществление действительно реальной возможности найти нужную информацию.